Tanıtım

Yaşam Bilimlerinde Veri Analizi

Emrah Kırdök, Ph.D.

2023-02-03

Hoşgeldiniz

Ders hakkında bilgi

  • Dersimiz çevrimiçi olarak Microsoft Teams platformu üzerinde işlenecek.
  • Video kayıtları Teams platormunda ve Uzaktan Eğitim sisteminde paylaşılacak.
  • Dersin internet sitesi: https://emrahkirdok.github.io/ybva/
  • Sınavlar hakkında açıklama ilerleyen haftalarda yapılacak.

Ders hakkında bilgi

  • Dersler video üzerinden anlatılacak.
  • Sorular Discord üzerinden!
  • Uzaktan eğitim sisteminde sorumluluk sizde!
  • R ve Rstudio programları kullanılacak.

Neden YBVA

Yaşam Bilimlerinde Veri Analizi

  • Yaşam bilimleri alanında hızlı bir gelişme var.
  • Dizileme teknolojileri sayesinde büyük miktarda veri üretildi.
  • Ancak bu veriyi analiz edebilecek insan sayısı kısıtlı.
  • Biz bu noktaya odaklanıyoruz.

Örnek: Dizileme verisi

NCBI dizi okuma arşivindeki veri miktarının artışı

Örnek: Türkiye deprem verisi

  • Sadece biyolojik veri olmasına gerek yok.
  • Artık bir veri dünyasında yaşıyoruz.
  • Mesela Türkiye ve çevresindeki depremleri incelemek ister misiniz?

Örnek: Türkiye deprem verisi

Deprem verisini analiz etmek ister misiniz?

Veri Bilimi

Yeni bir bakış açısı

  • Artan veri miktarı yeni bir bakış açısını gerekli kıldı.
  • Artık veri üzerinde çalışıyoruz.

Kısıt!

  • Ancak bu kadar veriyi analiz edecek insan sayısı az!
  • Geleceğin mesleği (On yıl sonra yerini başka bir geleceğin mesleğine devretmek üzere!)

Neden Veri Bilimi?

Verinin sakladığı gizemler

  • Bilimsel yöntem genelde gözlemden sonuca gider.
  • Ancak artık sonuçtan gözleme gidiyoruz!
  • Ancak özel ekipman kullanmamız gerekli.

Havalı bir meslek!

Chandler Bing’in mesleği

Bilgisayarlar

Bilgisayarlar

  • Adı üstünde bilgi sayar.
  • Temel işi saymak.
  • Sadece sayısal bilgi işleyebilir.
  • Genelde sayılar bir şeyleri temsil eder

Sayılar neyi temsil eder?

Harfleri:

  • A, B, C, d, e…

Notaları

Sayılar neyi temsil eder?

Kedileri?

Sayılar neyi temsil eder?

Gri tonlama

Sayılar neyi temsil eder?

DNA’yı:

TCTAGCTAGCTAGCTAGCTAGC TAGCTAGCTAGCTAGCTAGCTA GCTAGCTAGTCAGTCGTACGTA GCTAGCTAGCTAGCTAGTCGAT CGATCA

Sayılar neyi temsil eder?

Proteinleri:

QYINQSICIIYYMCTIKFSLWF LPGTKVCRCPVIQYDKFTRGYG LACTEEVATAQRYSRTIVRLWC EPKNRHCRGRDKNEGSLHASMF YQDTCWDDPYRLFKERYRCMPT NAQLTWTYYW

Bilgisayarlar bu verilerle ne yapar?

Veriler bilgisayarlar yardımıyla işlenir.

Bir konumdan başka bir konuma iletilir ve ve dönüştürülür.

Verilerin uzun süreli depolanması

Bilgisayarlar

CPU

Bilgisayarın temel bilgi işleme birimi.

Bütün parçalar arasındaki koordinasyonu sağlamaktan sorumludur.

Bir orkestra şefi gibi

RAM

Rastgele hafıza erişimi (Random Access Memory).

Bilgisayardaki birincil hafıza birimi. Sadece aktif olarak kullanılan veriler depolanır.

Ancak kısa süreldir ve kalıcılığı yoktur. Enerji kesildiğinde silinir.

Harddisk

İkincil depolama birimi olarak kullanılır.

Uzun süreli bir depolama sağlar.

Ucuz ancak yavaş bir depolama birimi.

Dosyalar

Sayıları depoladığımız listeler. Her dosyanın:

  • ismi
  • oluşturulma tarihi
  • boyutu
  • kullanım hakları

bulunur

Dosya isimleri

Bir karakter listesi:

  • harfler
  • numaralar
  • semboller
  • 250 karater uzunluğunda olabilir

Aşağıdakiler hariç:

  • Türkçe karakter ve boşluk!
  • **/, :, +, |, <, *, >, ” ve ’ **

Dosya isimleri

Unix/Linux sistemlerde büyük ve küçük harfler farklıdır.

Her dosyanın uzantısı vardır (zorunlu değil ama anlaşılmayı kolaylaştırır):

  • exe
  • jpg
  • doc
  • txt

Dosya tipleri

Temel olarak iki tip dosya var:

  • Metin dosyaları
    • Sadece düz metin içerirler
    • Anlaşılabilir
  • İkili dosyalar
    • Sayısal bilginin ikili şekilde düzenlenmiş hali.
    • Ses, resim dosylaları.

Metni ifade etmek

En basit metin gösterim metodu her bir karakteri tek bir bit ile ifade etmek.

İngilizce için ASCII isimli bir kodlama var

Sıfır - 127 arasındak her numara bir sembol veya bir sinyal olarak ifade edilir:

  • Yeni satır
  • Tab
  • boşluk
  • Silme tuşu

ASCII code

30 40 50 60 70 80 90 100 110 120
0 ( 2 < F P Z d n x
1 ) 3 = G Q [ e o y
2 4 > H R \ f p z
3 ! + 5 ? I S ] g q {
4 , 6 @ J T ^ h r |
5 # - 7 A K U i s }
6 $ . 8 B L V ` j t ~
7 % / 9 C M W a k u
8 & 0 : D N X b l v
9 ´ 1 ; E O Y c m w

Non-English languages use numbers between 128 and 255 for symbols like “Ç”, “Ö”, “É”, “Ñ”. (İngilizce dışındaki dillerde “Ç”, “Ö”, “É”, “Ñ” gibi semboller için 128 ile 255 arasındaki sayılar kullanılır)

Metin dosyaları

İkili dosyalar

R ve RStudio

Yeni bir çalışma biçimi

Başlangıçlar hep zor!

O zaman başlayalım!